配对实验 (matched-pairs experiment, MPE) 是 SRE 的最极端的版本. 每个分层中, 只有一个实验单元和一个对照单元.
1 实验设计和潜在结果
考虑一个 单元的实验. 如果我们的协变量是用于预测结果的, 我们可以把实验单元基于协变量的相似度进行配对.
- 如果是标量, 直接排序后两两组合;
- 如果是向量, 定义单元之间的距离然后进行排序, 比如可以使用贪心算法.
用 表示配对 中的单元 , 这里 , . 则它有潜在结果 , . 在每个配对里面, 我们随机指派一个单元接受实验, 一个接受控制. 记
我们可以正式定义 MPE:
定义 则配对 的观测结果是 和 最后观测到的结果为 .
2 FRT
类似之前, 我们依然用 FRT 检验
这里我们要模拟 的分布 (1.1). 则实验组结果控制组结果 这里 是独立同分布的 均值、 方差的变量. 在 FRT 中我们丢弃那些 的配对, 因为它们不对随机化分布做贡献.
配对内差值的均值是 在 下, , 且 基于 CLT, 我们有正态逼近 我们可以借此构造一个渐近意义下的检验: 这在 下有大 和小 时几乎就等于 .
在传统统计学中, 当 , 我们可以证明 , 也即 的实际自由度是 , 这很接近 .
基于 的排序 , 我们可以定义 在 下, 固定, 因此 以及 根据 CLT,
下 固定但是它们的符号随机, 因此 和 应该有相同的分布. 记 是 的 经验分布. 记 为 在 的左极限, 则 是 的经验分布. 定义统计量
只考虑符号 在 下 在 CLT 下
如果结果是二元的 (), 也即符合以下表格
|
控制组结果 1 |
控制组结果 0 |
| 实验组结果 1 |
|
|
| 实验组结果 0 |
|
|
则 在 CLT 下
3 Neyman 推断
在 MPE 下, 是 的保守估计: 如果 都相同, 则 .
定理说明, 在 MPE 下, 是一个保守的方差估计量, 且在各个配对的平均因果效应相同的情况下是无偏估计. 我们可以看到 依赖配对间的方差, 依赖配对内的方差.
回忆恒等式 , 它得到 . 因此 因此
类似其他实验, 我们可以得到 因此 Wald 置信区间 有至少 的概率覆盖 .
, 分别等于 对截距进行 OLS 得到的估计量和方差估计量.
4 协变量调整
有时候我们的配对并不完美, 或者我们有其他的协变量, 在配对的时候没有考虑. 此时我们可以调整协变量, 来更好提升估计效率. 假设每一个 有协变量 . 类似 CRE 的讨论, 我们可以有 FRT 和回归调整.
4.1 FRT
类似 伪结果策略, 我们可以基于将结果对协变量拟合后的残差来构建检验量(在 下这些残差固定不变). 例如, 用 对 进行 OLS 得到 , 然后将它作为观测结果, 构建检验量.
类似 模型结果策略, 我们也可以将某种系数作为检验量.
4.2 回归调整
现在我们关注估计 . 计算配对内的差值 , 以及他们的平均值 . 可以得到 所以在实际中, 除非所有 都为 , 不然 . 如果我们的采样 非常不幸, 那可能 离 很远. 类似 2.4 重随机化 回归调整, 可以通过调整协变量的不平衡来提升估计效率. 考虑 它对任何固定的 都有均值 . 选取 来最小化 的方差: 它的最小值点为
将 (4.1) 改写为 这里 对向量的每个分量取绝对值. 因此 固定且已知, 但 依赖未知的潜在结果.
幸运的是, 我们可以得到一个它的无偏估计:
的一个无偏估计是
它的证明和之前的 定理1 相似.
因此, 我们可以估计 为
这近似是 在 上 OLS 后 上的系数. 最后的估计量为 根据 OLS 的性质, 这就是 在 上 OLS 的截距. 则它的一个方差保守估计量是
在 MPE 下, 可以方便地进行近似: 将 对一个全 向量及 进行 OLS 拟合, 取截距和相关方差估计量.
一般的配对实验
现在假设我们有 个配对集合, 每个集合下有 个单元, 因此总共有 个单元. 用 表示单元, , . 潜在输出为 .
在集合 下, 随机选一个单元接受实验, 剩下 个作为对照组. 这样的设置也是 SRE 的特别案例, 有 个大小为 的分层. 则 平均因果效应 因为这是 SRE, 我们有无偏估计
FRT
我们依然可以有如下零假设
所以我们可以用之前 SRE 中的那些检验统计量. 此外我们在下面介绍一些特供的.
层内因果效应均值的估计
有无偏估计 . 有趣的是, 我们可以证明 定理1 对于一般的配对实验成立, 同样其他 MPE 的结论也是. 特别地, 我们可以用 对截距的 OLS 拟合来得到 的点估计和方差估计. 在协变量下, 用 在截距和 的 OLS 拟合, 这里 是 下对应的协变量均值之差.
一个更一般的因果目标参数
注意到平均的因果效应应该是 而非上面的 . 我们考虑加权的因果效应 这样 都是它的特例. 我们容易得到无偏估计和方差
但是估计方差比较困难, 因为这里的 都是独立的, 没有重复观测值. 在这里直接给出估计量 我们大致检查一下, 在 MPE 下, , 因此 .
方便起见, 我们认为 (也即没有集合占据了一大半的单元). 下面给出定理 1 的推广
等号成立当且仅当都为常数